前幾天剛講完了影像辨識的模型預測,我們要學的教另一種機器學習叫做線性回歸(Linear Regression),線性回歸一個利用每個數據中產生的線性關係來找出邏輯,並完成預測。
線性回歸這個詞你可能沒有聽過,但你一定有看過下面這個式子
沒錯就是國中時學過的二元一次方程式的概念,我們會利用每個數據來找出一條最適合的直線,而這條直線就是我們經過電腦找出答案的數據線,舉個例子:
上面這張圖的每個紅點是我們的資料,那條藍線就是預測線,在這張圖可以看到預測線跟資料室非常吻合的,那如果變成下面這樣呢?
可以並沒有每一筆資料都在預測線上,這並不奇怪,因為在現實生活中不會都像第一張圖的情況那麼完美,而是像第二張圖一樣並不是那麼整齊,這正是我們這次提到線性回歸的目的,為了預測不是那麼完美的資料。
我們在這次的主題線性回歸中會提到要怎麼建造和調整圖形、成本函數、以及兩種找出最佳解的方法。
接下來要做的線性回歸所採用的資料是我用excel做出來的身高體重統計,因為這只是我隨便寫的幾個身高體重,所以預測結果可能不會很貼近現實。
程式講解:
import pandas as pd
import matplotlib.pyplot as plt
from ipywidgets import interact
import numpy as np
首先要載入這些套件
data = pd.read_csv("Height & Weight.csv")
data
x = data["Height"]
y = data["Weight"]
再來導入我們的csv檔,並設定xy軸的數值,檔案在下面